Python数据科学:全栈技术详解3-长尾理论
作者:Ben,多本数据科学畅销书作家,先后在亚信、德勤、百度等企业从事电信、金融行业数据挖掘工作。
配套学习教程:数据科学实战:Python篇 https://edu.hellobi.com/course/270
前文传送门:
长尾理论是二八法则的延伸,用于描述不平衡的现象热门商品约占全部商品的10%,而热门商品中约2%的特别热门商品则带来25%的收入和3.3%的利润,这个结论是由大样本统计得出的。本节从社会中“流行”的概念开始介绍长尾理论。
3.1 社会中的“流行”
在现代社会中,“流行”无处不在。比如每年都会有机构发布当年的“流行”色彩、“流行”音乐排行榜、“流行”贺岁电影等,而互联网上,新的“流行语”总是层出不穷。
所谓“流行”,就是某个“东西”在短时间内获得大量“采用”的社会现象。在社会的意义上可以将其视为人们对某种社会现象的接受与跟从,从群体的意义上可以将其视为社会文化的一个类型。如青少年中某种姿态的流行,可以将其视为青少年亚文化;最近讨论较多“杀马特”(smart)现象,可以将其理解为一种社会符号。
无论是哪种“流行”,总具有一些基本的特征,比如以下几点。
(1)新奇性。无奇不流行,没有奇特之处,就很难流行。服装、音乐、行为、姿态、语言,只要是流行的,总有其奇特之处。
(2)潮涌性。流行总是在短时间内的爆发,过一段时间,就不再流行了。也许有些流行会有较长长时间的影响力,例如邓丽君的歌曲,但很难再次成为流行。
(3)更替性。现代社会的“流行”,总是一个接着另一个,不断地变化着。“流行”始终更替存在。
3.2 流行的定量观察
1.幂律分布
以某网页的浏览数据为例,给定一个网页集合,如下所示。
考察一个网页的入向链接数为的概率(占比),其近似服从幂律分布,入向连接数k(流行度)与网页种类数的的关系为:
其分布图如图所示,其中横轴表示网页的流行度,纵轴表示网页种类。
可以看到,入向连接数较大的网页只有少数几个,对应于图中的右侧尾部;而大多数网页的入向连接数比较少,位于图中的左侧。即实际情况中,大量的网页无人问津,访问量较少;而少量的网页的访问量很多,很受欢迎。
2.幂律分布的原因
网页入向连接数呈现幂律分布的原因在于,大部分人只熟悉那些更容易为人所知(流行)的站点,从而导致了链接增多,而链接增多作为结果,又成为加强人们对它们的偏好的原因,这样不断循环,最终较流行的网站变得更加流行,不流行的网站变得更加不流行,这种效应可以被概括为“富者更富”。
“富者更富”的效应具有不可预测性,原因在于其在最初阶段充满不确定性,而“富”到一定程度后就开始出现质变,成为流行。
3.3 长尾理论
长尾理论是观察事物流行度的另一种视角。例如,一些不同品牌产品的占比与销量(流行度)的关系服从幂律分布,如图所示。
其含义是少数品牌的产品销量非常多,位于曲线的右侧尾部;大部分品牌的产品销量较少,位于曲线左侧。这种情况常发生于电商的购物平台。
而对于这些产品,我们可以将其分为畅销产品和利基产品。如果需要营销与推广这些产品,那么常见的营销策略有以下几种。
1.排行榜
排行榜的性质是按照流行度将产品排序并进行展示。显然这种营销策略有利于推广畅销产品,倾向于“富者更富”,而不利于利基产品。例如音乐排行榜,其无法推广不受欢迎的音乐。
2.相关性推荐
相关性推荐对于畅销产品与利基产品的作用取决于“相关性”的含义。
如果是基于用户进行推荐,相关性被定义为用户之间的相似程度,其对畅销产品的推广能力要比利基产品的推广能力强,也倾向于“富者更富”,例如“购买了此类商品的用户还购买了某类商品……”,这种推荐方式推广的商品很可能是畅销产品而非利基产品,因为大多数人倾向于购买畅销产品。
如果是基于商品或内容进行推荐,相关性就被定义为内容的相似程度,这种推荐方式有利于推广利基产品,例如“与此商品相似的商品有……”。这种推荐方式强调所提供的服务或功能相似的商品,所以可以推荐不够流行但功能、服务较为相似的商品。
3.搜索引擎
搜索引擎本身可以依照搜索的关键字匹配商品,其推广能力取决于用户本身对商品的偏好,显然这种偏好是随用户需求的变化而变化的。所以搜索引擎对于畅销产品与利基产品的推荐能力是不确定的。
总而言之,长尾理论揭示了商品流行的一种现象,在进行营销推广时,应注意畅销产品与利基产品的差异。那么关于推荐,数据挖掘能够提供怎样的方法呢?下一节对此问题进行解答。
老师的文章配套免费课程
立刻扫码或点击阅读原文学习吧~